草庐IT

flink 流批

全部标签

一年省七位数,得物自建HFDS在 Flink Checkpoint 场景下的应用实践

1、背景随着阿里云Flink实例的迁移下云以及新增需求接入,自建Flink平台规模逐渐壮大,当前总计已超4万核运行在自建的K8S集群中,然而Flink任务数的增加,特别是大状态任务,每次Checkpoint时会产生脉冲式带宽占用,峰值流量超过100Gb/s,早期使用阿里云OSS作为Checkpoint数据存储,单个Bucket每1P数据量只有免费带宽10Gb/s,超出部分单独计费,当前规模每月需要增加1xw+/月。为了控制这部分成本,得物开展了自建HDFS在FlinkCheckpoint场景下的落地工作,实现年度成本节省xxx万元。此次分享自建HDFS在实时计算checkpoint场景的实践经

Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

1.背景        接手了一个问题排查的工作,有个Flink任务每天不定时会出现数据积压,无论是白天还是数据量很少的夜里,且积压的数据量会越来越多,得不到缓解,只能每日在积压告警后重启,重启之后消费能力一点毛病没有,积压迅速缓解,然而,问题会周而复始的出现,无论是周末还是节假日,忍不了2.现象    1.当积压时,最明显的是kafka积压不断升高     2.FlinkProcessFunction(主要处理逻辑)中多个代码块处理时间变长    为了定位问题,在processFunction多个代码块加了处理时间的计算,结果发现,无论是简单的json处理部分还是与外部Redis,Mysql

【Flink系列】查看Flink版本的命令,常用命令

 1.如何查看安装的Flink的版本?使用cd命令,进入Flink的安装目录的bin目录下,执行一下命令: ./flink  -v2.查看Flink运行的job情况也是在安装目录bin目录下,执行命令: ./flink  list 20220411补充:3.Flink停止/启动操作进入flink的安装目录:./bin/stop-cluster.sh       ##停止./bin/start-cluster.sh       ##启动后续更新 。。。。

实时数仓建设第2问:怎样使用flink sql快速无脑统计当天下单各流程(已发货,确认收货等等)状态的订单数量

实时统计当天下单各流程状态(已支付待卖家发货,卖家通知物流揽收,待买家收货等等)中的订单数量。订单表的binlog数据发送到kafka,flink从kafka接受消息进行指标统计。因为每笔订单的状态会发生变化,比如上午为【已支付待卖家发货】,这个时候【已支付待卖家发货】指标数要+1,下午订单的状态变更为【卖家通知物流揽收】,这个时候【卖家通知物流揽收】指标数要+1,而【已支付待卖家发货】指标数要-1。如果采用Java代码编程,那么需要深入理解业务考虑每种状态变更,编写大量if逻辑稍有遗留就会统计错误结果。但是如果使用flinksql是不是就不需要考虑这些业务问题了?要想使得selectorde

大数据之使用Flink消费Kafka中topic为ods_mall_data的数据,根据数据中不同的表将数据分别分发至kafka的DWD层

目录前言题目:一、读题分析二、处理过程三、重难点分析总结 前言本题来源于全国职业技能大赛之大数据技术赛项赛题-电商数据处理-实时数据处理注:由于设备问题,代码执行结果以及数据的展示无法给出,可参照我以往的博客其中有相同数据源展示题目:  提示:以下是本篇文章正文内容,下面案例可供参考(使用Scala语言编写) 一、读题分析涉及组件:Scala,Flink,Kafka,json涉及知识点:Flink处理数据Flink1.14新特性json文件的处理二、处理过程 --代码仅供参考--importorg.apache.flink.api.common.eventtime.WatermarkStrat

基于 Flink CDC 的现代数据栈实践

摘要:本文整理自阿里云技术专家,ApacheFlinkPMCMember&Committer,FlinkCDCMaintainer徐榜江和阿里云高级研发工程师,ApacheFlinkContributor&FlinkCDCMaintainer阮航,在FlinkForwardAsia2022数据集成专场的分享。本篇内容主要分为四个部分:1.深入解读FlinkCDC2.3版本2.基于FlinkCDC构建现代数据栈3.阿里云内部实践和改进4.Demo&未来规划一、深入解读FlinkCDC2.3版本1.1FlinkCDC首先介绍一下FlinkCDC技术。FlinkCDC是基于数据库的日志CDC技术,实

Flink的安装与配置(集群版)(保姆级教程)

Flink简述:Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink安装前准备工作:1、使用xftp将Flink安装包上传到虚拟机中flink-1.10.0-bin-scala_2.11.tgz可以去国内镜像下载,也可以去apacheflink官网下载Flink安装操作步骤:1、解压缩文件tar-zxfflink-1.10.0-bin-scala_2.11.tgz-C../soft/2、为了方便以后使用,将解压缩后的文件夹修改名字mvflink-1.10.0/flink3、选择性配置环境变量vim/etc/profile#FLINK_HOMEexportFLI

Flink Sql(二) Kafka连接器

Kafka连接器​在TableAPI和SQL编写的Flink程序中,可以在创建表的时候用WITH子句指定连接器(connector),这样就可以连接到外部系统进行数据交互了。​架构中的TableSource负责从外部系统中读取数据并转换成表,TableSink则负责将结果表写入外部系统。在Flink1.13的API调用中,已经不去区分TableSource和TableSink,我们只要建立到外部系统的连接并创建表就可以,Flink自动会从程序的处理逻辑中解析出它们的用途。​Flink的TableAPI和SQL支持了各种不同的连接器。当然,最简单的其实就是连接到控制台打印输出:CREATETAB

在IDEA本地开发时Flink CDC和Flink的guava版本冲突解决办法

目录1.冲突原因2.解决办法1.冲突原因使用FlinkCDC2.2.0版本的时候,会报ThreadFactoryBuilder这个类找不到的错误,如下所示:java.lang.NoClassDefFoundError:org/apache/flink/shaded/guava18/com/google/common/util/concurrent/ThreadFactoryBuilder因为FlinkCDC使用的是guava版本是18.0-13.0,如下所示:org.apache.flinkflink-shaded-guava18.0-13.0而Flink1.14.4使用的guava版本是30

在IDEA本地开发时Flink CDC和Flink的guava版本冲突解决办法

目录1.冲突原因2.解决办法1.冲突原因使用FlinkCDC2.2.0版本的时候,会报ThreadFactoryBuilder这个类找不到的错误,如下所示:java.lang.NoClassDefFoundError:org/apache/flink/shaded/guava18/com/google/common/util/concurrent/ThreadFactoryBuilder因为FlinkCDC使用的是guava版本是18.0-13.0,如下所示:org.apache.flinkflink-shaded-guava18.0-13.0而Flink1.14.4使用的guava版本是30